一道电梯题,暴打国产大模型!
我在30层等电梯,图片描述了当前电梯的运行状态。
假设电梯每1秒钟可以上升或下降一层,不考虑开关门的时间,其他楼层也不存在乘坐电梯的人。那么,我最快要多久才能乘坐该电梯到达地面一层?
废话不说,我们来看看考试结果吧↓
先上一个最近比较火的免费模型:智谱清言。
关注到它是因为我的一个朋友今年52岁了,今年利用智谱+ChatGPT4.0辅导考研,结果成功通过了全国研究生统考(398分)。
那么智谱清言在电梯考题中表现如何?
这个答案让我有点懵逼,直接忽略了我在30层的关键信息,给出14秒的错误答案。
看来,图+文的双重信息,给它造成了困扰。
再看第二个:讯飞星火
同样,读图和对题目的理解都不正确,这里面的核心是无法理解人乘坐电梯和电梯运行之间的关系。导致答题失败。
第三个,阿里系的通义千问
且不论答案正确与否,整个回答前后语言逻辑就不通,属于答非所问。
本来还想调戏下腾讯混元和字节豆包,可惜这俩家伙现在还不支持「图片+文字」的混合式提问,没给我机会。
几个测下来,怎么说呢,都是一根筋,给人“一种大脑发育不完全,小脑完全不发育”的感觉。
不过,上面三个大模型都是免费的,既然是白嫖,那么咱不能要求太高
所以,来看看收费的文心一言怎么样↓
看完这个回答,怎么说,第一感觉是有点东西,似乎比别人多动了点脑子。但仔细一看,也不是太灵光。
首先读图理解不准确,电梯明明是在下行,小度却没有给出明确的判断。
接下来,持续加戏,把答案分成了两种情况,但答越多就错得越多。比如连从“30层下降到1层需要经过几层楼”这种基本常识都没搞清楚。
文心一言就像是个遇到了难题的考生:这题不会怎么办,把试卷写满,不管对不对,诚意在那里,给老师留个印象分吧。
讲真,我第一遍看答案的时候,看到满满一屏,差点被它蒙住了。
文心一言的费用是59.9元每月,从答题结果看,这价格真不便宜。
玩到这里我有点不甘心,是不是这道题太难了,超过了当前大模型的能力?
于是,我决定再去调戏一下ChatGPT↓
最后一问,那就是ChatGPT4为什么能做出正确判断?
【通义千问的回答↑】
我并不是个“GPT吹”,过去一年,也确实能够看到国产大模型们在互卷中持续进步,更希望他们在这种“比学赶帮超”中,早日吊打GPT、Claude3们。
毕竟GPT4很贵(140块一个月),访问还很不方便、不稳定。而像Claude3这样的新贵,你想体验一下都很不容易。
比如我周末想试试号称吊打GPT4的Claude3,结果发现中国大陆和中国香港的账户是无法使用的。(当然像羊驼那些“老破小”模型,是不受限制的)